Reconeixement de la parla

El reconeixement automàtic de la parla (RAP) o reconeixement automàtic de veu és una part de la intel·ligència artificial que té com a objectiu permetre la comunicació parlada entre éssers humans i computadores electròniques. Un sistema de reconeixement de veu és una eina computacional, capaç de processar el senyal de veu i reconèixer la informació que porta. Les disciplines que intervenen en aquest procés són, la fisiologia, l'acústica, el processament de senyal (quantificació), la intel·ligència artificial i la ciència computacional.^[1]

El principal problema que es planteja en un sistema de RAP és el de fer cooperar un conjunt d'informacions que provenen de diverses fonts de coneixement: acústica, fonètica, fonològica, lèxica, sintàctica, semàntica i pragmàtica); en presència d'ambigüitats, incerteses i errors inevitables per arribar a obtenir una interpretació acceptable del missatge acústic rebut.

Es tracta d'una tecnologia que ha experimentat un major avanç en els últims anys, passant de poder reconèixer només a un parlant, dins un vocabulari limitat, fins a prototips que poden reconèixer qualsevol parlant sobre vocabularis flexibles de milers de paraules.

El procés de RAP intenta aconseguir una seqüència de paraules que corresponguin a la frase en el llenguatge natural d'entrada. La frase és pronunciada de forma contínua, sense pauses entre les paraules. D'aquesta manera no es generen problemes gramaticals. Per aquest motiu, aquests sistemes són força costosos en concepte de memòria de càlcul.

↑ Fundació Bofill (llicència CC-BY). Els algorismes a examen: Per què la IA a l'educació?, 2023. ISBN 978-84-124829-8-0 [Consulta: 26 març 2023]. Arxivat 2023-01-04 a Wayback Machine.

[1] Fundació Bofill (llicència CC-BY). Els algorismes a examen: Per què la IA a l'educació?, 2023. ISBN 978-84-124829-8-0 [Consulta: 26 març 2023]. Arxivat 2023-01-04 a Wayback Machine.

[1]